本文提出了一种对无线通信中的一类主动感测问题的深度学习方法,其中代理在预定数量的时间帧上与环境顺序地交互以收集信息,以便为最大化一些实用程序函数来执行感测或致动任务。在这样的主动学习设置中,代理需要根据到目前为止所做的观察结果来依次设计自适应感测策略。为了解决如此挑战的问题,其中历史观察的维度随着时间的推移而增加,我们建议使用长期短期记忆(LSTM)网络来利用观察序列中的时间相关性,并将每个观察映射到固定的尺寸状态信息矢量。然后,我们使用深神经网络(DNN)将LSTM状态映射到每个时间帧到下一个测量步骤的设计。最后,我们采用另一个DNN将最终的LSTM状态映射到所需的解决方案。我们调查了无线通信中建议框架的性能框架的性能。特别地,我们考虑用于MMWAVE光束对准的自适应波束形成问题和反射对准的自适应可重构智能表面感测问题。数值结果表明,所提出的深度主动传感策略优于现有的自适应或非一种非应用感测方案。
translated by 谷歌翻译
使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外,它们可用于自然灾害后的建筑损害评估。当前,大多数用于建筑物检测的现有模型仅使用一个图像(预拆架图像)来检测建筑物。这是基于这样的想法:由于存在被破坏的建筑物,后沙仪图像降低了模型的性能。在本文中,我们提出了一种称为暹罗形式的暹罗模型,该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器,并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合,以从disasaster图像生成查询,并且(键,值)是从disasaster图像中生成的。为此,在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是,与CNN相比,它们可以更好地维持由变压器编码器产生的大型接受场。最后,在每个阶段,将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型,用于构建检测以及Levir-CD和CDD数据集,以进行更改检测,并可以胜过最新的。
translated by 谷歌翻译
顺序决策的两种常见方法是AI计划(AIP)和强化学习(RL)。每个都有优点和缺点。 AIP是可解释的,易于与象征知识集成,并且通常是有效的,但需要前期逻辑域的规范,并且对噪声敏感; RL仅需要奖励的规范,并且对噪声是强大的,但效率低下,不容易提供外部知识。我们提出了一种综合方法,将高级计划与RL结合在一起,保留可解释性,转移和效率,同时允许对低级计划行动进行强有力的学习。我们的方法通过在AI计划问题的状态过渡模型与Markov决策过程(MDP)的抽象状态过渡系统(MDP)之间建立对应关系,从而定义了AIP操作员的分层增强学习(HRL)的选项。通过添加内在奖励来鼓励MDP和AIP过渡模型之间的一致性来学习选项。我们通过比较Minigrid和N房间环境中RL和HRL算法的性能来证明我们的综合方法的好处,从而显示了我们方法比现有方法的优势。
translated by 谷歌翻译